Синология.Ру

Тематический раздел


Развитие системы интерактивных сетевых конкордансов по китайской классике CTEXTS

 
 
В предыдущей публикации [1] мы осветили начальный процесс развития нового типа сетевых конкордансов классических китайских текстов, расположенных на сетевом ресурсе CHINESE CLASSICS CONCORDANCES. За прошедший год эта система получила дальнейшее развитие и стала частью проекта The Warring States Project  при Массачусетском университете (Амхерст) .
 
На первой стадии наш проект сетевых конкордансов включал в себя только тексты Чуньцю и Цзо-чжуани, с возможностью получения базовых статистических сведений об этих текстах. В настоящее время набор текстов значительно расширился. Помимо еще двух классических комментариев к Чуньцю (Гунъян-чжуань и Гулян-чжуань), были добавлены Ши-цзин и Шу-цзин. Это и обусловило переименование ресурса в «Китайские классики», а также его включение в состав проекта «Сражающихся царств».
 
Качественные и количественные изменения. Расширение номенклатуры ресурса потребовало не только количественных, но и качественных изменений в пользовательском интерфейсе. К количественным изменениям можно отнести создание отдельных интерфейсов получения статистических данных для каждого типа памятника: Чуньцю (со всеми комментариями), Ши-цзину и Шу-цзину. В настоящее время общий для всех памятников статистический интерфейс отсутствует (например, невозможно получить единый частотный список иероглифов для всех памятников). Отчасти это объясняется несовместимостью структур памятников (например, для Чуньцю существенна структура правления гунов, для Ши-цзина – песен, для Шу-цзина – документов), отчасти – проблемами представления данных (общие списки могут быть слишком громоздкими для представления на одной странице).
 
К качественным изменениям можно отнести унификацию выдачи информации в разделе «Поиск» (по иероглифу, чтению пиньинь или английскому эквиваленту). Но главное качественное изменение заключается в унификации выдачи информации для иероглифов, находящихся в «корзине» (буфере сеансовой памяти). Унификация выдачи информации по поисковым запросам для иероглифов в «корзине» потребовала значительного пересмотра структурданных  базы данных проекта (изначально проектировавшеся только для Чуньцю и комментариев к этому тексту). Следует также добавить, что, помимо расстояний и сочетаемости иероглифов «корзины», к ней добавилась функция co-occurences, то есть, выдача списка лексического окружения каждого иероглифа в «корзине» во всех текстах проекта, с указанием частотности.
 
Английские переводы. Одним из важных новых элементов проекта стало добавление английских переводов некоторых текстов. Для этого были выбраны классические переводы Дж. Легга. Эти переводы до сих пор не потеряли своей актуальности, и, главное, находятся в открытом доступе. В частности, добавлены переводы Чуньцю, Ши-цзина и Шу-цзина.
 
Значительные усилия были приложены для синхронизации синтаксических структур китайского и английского текста, то есть, созданию «параллельных двуязычных текстов». Для Чуньцю и Ши-цзина синронизация происходит на уровне предложений, для Шу-цзина – на уровне параграфов. Такая синронизация, в сочетании с доступной статистикой по фразам, может быть использована для синтаксического анализа древнекитайских текстов.
 
Новые функции. Общая структура пользовательского интерфейса проекта осталась прежней. Вместе с тем, добавились новые функции. Одна из них, выдача списка лексического окружения иероглифов из «корзины» была описана выше.
 
Другой важной функцией, позволяющей проводить синтаксический анализ классических китайских текстов, является выдача списка фраз (phrases,  в интерпретации англоязычной лингвистической традиции) для всех текстов проекта. Фразы представлены в порядке убывания частотности, и снабжены гиперссылками, позволяющими просмотреть все вхождения конкретной фразы в тексте.
 
С целью облегчения семантического и лексического анализа текстов, и других методов анализа корпусной лингвистики, для каждого текста были добавлены потенциальные двузначные collocation (коллокации, фразеологические сочетания, фразеологизмы и устойчивые сочетания), определяемые по статистическим критериям взаимной информации и t-score (T-критерию).
 
Коллокации важны не только для собственного лингвистического, но и для историко-культурного анализа текстов. В сущности, многие из них представляют собой то, что принято называть «терминами» китайской философии и культуры.
 
Заслуживает внимания, например, тот факт, что наибольший t-score (с большим отрывом) в Шу-цзине принадлежит термину цзюньцзы, в то время как в Ши-цзине это словосочетание попадает только на 84-е место. Эти памятники объединяет, однако, высокое значение Т-критерия для имени Вэнь-вана.
 
Наконец, для всех памятников приводятся списки фраз с указанием повторяемости в текстах.
 
Мы надеемся, что новая система конкордансов позволит облегчить китаеведам проводение более глубоких синтаксических, семантических и лексических исследований китайских классических текстов.
 
Литература
 
1. Зинин С.В.   // XL научная конференция «Общество и государство в Китае». М., 2010, т.1.
 
Serguei Zinine
Warring States Project
University of Massachusetts (Amherst)
 
CTEXTS - the new system of online concordances of Classical Chinese Texts
 
Abstract
 
CTEXTS (Classical Chinese Texts)  is an online system of concordances of Chinese classical texts. It started as an online concordance for Chunqiu and Zuozhuan in 2009, and has been adding new texts since then. It became a part of the Warring States Project  at the University of Massachusetts (Amherst) in 2010, and currently includes, along with Chunqiu and its commentaries, Shi-jing and Shu-jing.
 
The addition of new texts made necessary a series of quantitative and qualitative changes to the system, e.g., unification of query output for characters in the system buffer (“the Bag”). Another new feature is addition of parallel aligned (on sentence or paragraph level) Legge’s English translations of Chunqiu, Shu-jing and Shi-jing. This opens perspectives for advanced comparative studies of Ancient Chinese syntax and semantics. Among other new functionalities are phrase inventory, lexical context querying, and list of potential collocations (selected by t-score and mutual information criteria). The new system allows advanced syntactic, lexical and semantic analysis of classical Chinese texts.
 
Ст. опубл.: Общество и государство в Китае: XLI научная конференция / Ин-т востоковедения РАН. - М.: Вост. лит., 2011. – 440 с. – (Ученые записки Отдела Китая ИВ РАН. Вып. 3 / редкол. А.А. Бокщанин (пред.) и др.). – ISBN 978-5-02-036461-5 (в обл.). С. 439-440.

Автор:
 

Синология: история и культура Китая


Каталог@Mail.ru - каталог ресурсов интернет
© Copyright 2009-2024. Использование материалов по согласованию с администрацией сайта.